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摘 要 : 知识 图 谱 是 一 种 结构 化 的 语义 知识 库 ， 以 图 形 化 的 方式 描述 知识 资源 。 通 过 可 视 化 的 知识 图 谱 可 以 清晰 地 展示 学 术 
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图 书 选 题 相关 信息 间 的 关联 关系 以 及 整体 知识 脉络 ， 为 优化 选 题 相 关内 容 、 有 效 分 析 挖 气 出 好 的 选 题 提 供 支撑 。 本 文 对 学 术 
图 书 选 题 知识 图 谱 进 行 了 研究 ， 提 出 了 学 术 图 书 选 题 知 识 图 谱 的 表示 和 构建 方法 ， 为 学 术 图 书 选 题 策 划 提 供 辅助 决策 支撑 。 
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在 出 版 领域 ， 选 题 是 指 经 过 多 方面 分 析 、 考 量 而 选 
中 主题 后 拟 实施 的 出 版 项 目 。" 传统 的 选 题 策 划 多 凭借 
编辑 的 经 验 ， 数 据 的 处 理 多 采用 孤立 的 方式 ， 一 般 对 每 
一 项 内 容 进 行 单独 分 析 , 数据 存储 方式 简单 , 保存 时 期 短 ， 
无 法 实现 信息 的 精细 化 管理 和 多 元 化 、 多 角度 的 延伸 ， 
没有 充分 挖掘 采 集 数 据 的 价值 。 在 当下 移动 互联 网 快速 
发 展 和 迅速 普及 的 时 代 ， 必 须 通过 一 定 的 手段 对 数据 进 
行 重 构 和 应 用 ， 才 能 在 数据 内 容 呈 爆炸 式 增长 的 态势 下 
快速 地 获得 有 价值 的 信息 。 

本 文 对 学 术 图 书 选 题 知 识 图 谱 的 表示 、 构 建 等 进行 
研究 ， 以 期 通过 构建 的 学 术 图 书 选 题 知识 图 谱 对 编辑 策 
划 学 术 图 书 选 题 提 供 有 效 的 辅助 决策 。 

1. 学 术 图 书 选 题 现状 分 析 

一 般 来 说 ， 选 题 来 源 于 编辑 在 信息 采集 过 程 中 产生 
的 某 种 意向 或 愿望 ， 通 过 周密 分 析 、 研 究 主 客观 条 件 、 
多 方 论证 等 逐步 形成 方案 。 选 题 信息 的 采集 是 选 题 策划 
中 重要 的 步 又 ,是 选 题 发 现 、 策 划 、 验 证 、 论 证 的 基础 。 
1. 1 学 术 图 书 选 题 策划 采集 的 信息 类 型 

学 术 图 书 选 题 策划 采集 的 信息 一 般 包含 : 社会 信息 、 
学 科 信 息 、 出 版 信息 、 市 场 (读者 ) 信息 、 读 者 信息 5 
部 分 。™ 

(1 ) 社会 信息 包含 学 科 所 涉及 的 中 央 和 地 方 政府 的 
法 规 、 政 策 、 白 皮 书 、 公 开 信息 等 。 

(2 ) 学 科 信 息 包含 学 科 的 范围 和 主要 内 容 、 国 内 外 
发 展 情况 、 前 治 发 展 方向 和 重点 方向 、 重 点 科研 项 目 、 
研究 课题 、 学 科 领 军人 物 、 学 术 成 果 及 侈 奖 。 


档 、 表 格 及 少量 数据 库 的 形式 存储 ， 存 在 一 些 问题 ,， 主 
要 如 下 。 
1.2.1 信息 异 构 

在 图 书 选 题 信息 采集 过 程 中 ， 获 取 的 信息 的 来 源 广 
泛 ， 数 据 结 构 不 全 相同 ， 这 给 数据 的 融合 、 存 储 带 来 了 
巨大 的 困难 。 
1.2.2 信息 宛 余 

不 同 来 源 的 信息 组 合 难度 高 、 优 势 互 补 性 差 ， 信 息 
的 完整 性 不 高 。 

信息 存在 大 量 的 宛 余 与 噪声 ， 信 息 的 准确 度 有 待考 
究 。 
1.2.3 信息 孤立 

空间 上 不 连续 : 关注 的 信息 内 容 不 能 在 数据 上 体现 
事件 与 事件 之 间 的 联系 。 

时 间 上 不 连续 : 关注 的 信息 内 容 时 间 持 续 性 短 。 
1.2.4 信息 静止 

不 能 有 效 利用 已 有 信息 进行 发 现 与 预测 。 
1.2.5 信息 可 视 化 困难 

数据 不 能 以 多 种 形态 表现 ,使 其 更 直观 、 更 易于 理解 。 

以 上 问题 导致 图 书 选 题 信息 存储 难 、 检 索 难 、 重 复 
利用 与 共享 难 。 
在 传统 的 图 书 选 题 的 信息 采集 过 程 中 ， 多 是 通过 编 
辑 的 搜集 ， 进 行 简单 存储 ( 多 以 文档 、 表 格 及 少量 数 
库 的 形式 存储 ) ， 依 赖 人 力主 观 对 读者 、 作 者 、 内 容 、 
营销 等 方面 的 信息 进行 思考 和 分 析 , 形成 选 题 策划 方案 。 
传统 的 学 术 图 书 选 题 方式 主观 性 因素 大 ， 信 息 分 析 不 够 
精确 ， 可 靠 性 和 科学 性 不 高 ， 且 信息 检索 、 重 复 利 用 及 


ml 


(3 ) 出 版 信息 包含 两 个 方面 : 一 方面 指 本 出 版 社 同 
类 选 题 图 书 的 品种 、 数 量 、 作 者 、 销 售 状 况 等 信息 ; 另 
一 方面 指 同行 , 即 其 他 出 版 社 出 版 该 类 选 题 图 书 的 品种 、 
数量 、 作 者 、 销 售 状况 等 信息 。 

(4) 作者 信息 包含 作者 的 学 科 背 景 、 职 务 职称 、 研 
究 方 向 、 主 要 工作 、 已 申请 课题 、 若 作 情 况 等 。 

(5 ) 读者 具有 个 性 化 特征 ， 主 要 信息 包含 读者 基本 
信息 ( 年龄 、 职 业 等 )、 购买力、 读者 实际 需求 、 潜 在 需求 、 
图 书市 场 分 布 、 图 书市 场 反馈 等 。 

1.2 采集 信息 存在 的 问题 
目前 ， 学 术 图 书 选 题 策划 过 程 中 获取 的 信息 多 以 文 


* 本 文通 讯 作者 


共享 困难 。 因 此 ， 本 文 对 学 术 图 书 选 题 知 识 图 谱 知 识 表 
示 和 构建 方法 进行 研究 ， 通 过 对 信息 数据 进行 重 构 ， 使 
对 信息 的 认识 更 加 清晰 、 立 体 ， 并 以 期 通过 推理 等 算法 
实现 模拟 大 脑 综合 分 析 信 息 的 能 力 ， 辅 助 图 书 选 题 进行 
有 效 决策 。 
2. 学 术 图 书 选 题 知识 图 庶 的 定义 

学 术 图 书 选 题 知识 图 谱 旨 在 构建 一 张 巨大 的 语义 网 
络 图 ， 用 以 描述 学 术 图 书 选 题 策划 过 程 中 存在 的 各 类 实 
体 及 其 关系 。 图 的 节点 表示 实体 ， 图 的 边 表示 关系 。 也 
可 以 认为 学 术 图 书 选 题 知识 图 谱 是 一 个 大 规模 的 知识 库 ， 
为 学 术 图 书 选 题 中 涉及 的 复杂 数据 提供 有 效 的 存储 、 检 
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索 及 可 视 化 ， 为 学 术 图 书 选 题 策划 提供 可 靠 、 清 晰 的 信 
息 及 脉络 。 
目前 ， 学 术 图 书 选 题 知 识 图 谱 的 数据 来 源 主要 基于 
第 2 节 所 述 的 社会 信息 、 学 科 信 息 、 出 版 信息 、 市 场 ( 读 
者 ) 信息 、 读 者 信息 5 个 方面 相关 信息 ， 并 可 根据 实际 
需求 进行 扩展 。 5 个 方面 信息 涉及 的 数据 类 型 主要 有 3 类 。 
2. 1 结构 化 数据 
主要 指 关系 数据 库 中 表 、excel 表 以 及 其 他 具有 结构 
的 数据 。 在 学 术 图 书 选 题 知识 图 谱 的 构建 中 ， 其 主要 来 
源 于 出 版 社 各 级 系统 数据 库 及 合作 商 可 提供 的 数据 库 等 。 
2. 2 无 结构 化 数据 

在 学 术 图 书 选 题 知 识 图 谱 构 建 中 ， 主 要 指 纯 文本 资 
料 ， 例 如 硕 博 论文 、 报 纸 、 会 议 的 图 像 和 声音 等 数据 。 
2. 3 半 结 构 化 数据 

主要 指 介 于 结构 化 数据 和 无 结构 化 数据 之 间 ， 通 常 
的 XML、HTML 等 相关 网 页 均 属 于 半 结 构 化 数据 。 半 结 
构 化 数据 在 学 术 图 书 选 题 构建 中 ， 主 要 来 源 于 各 类 网 站 
获取 的 信息 ， 例 如 从 电 商 网 站 (图书 商城 ) 的 XML 中 
获取 的 图 书信 息 (图 书 名 称 、 编 辑 推荐 、 作 者 简介 等 ) 
和 图 书市 场 信息 (评价 星 级 、 评 价 时 间 、 评 价 人 地 理 位 
置 等 ) 、 从 工业 和 信息 化 部 网 站 的 XML 中 获取 的 公开 
信息 等 。 

学 术 图 书 选 题 知识 图 谱 的 表示 与 构建 参考 一 般 知识 
图 谱 的 构建 过 程 ， 通 过 三 元 组 对 学 术 图 书 选 题 知 识 图 谱 
进行 表示 ， 通 过 图 形 数据 库 Neo4j 的 规范 设计 存储 模式 
及 构建 学 术 选 题 知识 图 谱 。 
3. 学 术 图 书 选 题 知识 图 谱 的 表示 

学 术 图 书 选 题 知识 图 谱 的 结构 由 节点 集合 和 边 集 合 
构成 ， 形 式 化 表示 如 式 (1): 

ATS_KG={<ATS_N>, <ATS R>} (1) 
其 中 ，<ATS_N> 表示 学 术 岁 书 选 题 的 节点 集合 ， 节 
点 是 学 术 图 书 选 题 信息 中 的 各 种 实体 ,例如 作者 、 书 籍 ; 
<ATS_R> 表示 学 术 图 书 选 题 的 边 集合 ， 可 表达 为 如 式 
(2) : 

<ATS_R >={<ATS_T>, <ATS_D>, <ATS_G>} (2) 
其 中 ，<ATS_T> 表示 关系 的 类 型 集合 ， 例 如 “作者 
一 书籍 关系 ”“ 书 籍 一 出 版 社 关 系 ”; <ATS_D> 表示 关 
系 的 方向 集合 , 例如 “作者 一 > 书籍 ” “书籍 < 一 出 版 社 ”; 
<ATS_G> 表示 三 元 组 集合 ， 通 过 三 元 组 表达 语义 关系 ， 
每 一 个 三 元 组 表示 一 个 事实 ， 可 表示 为 如 式 (3) : 

<ATS_G>={ ( ATS_N,, ATS_T,, ATS_N,)} (3) 
其 中 , 式 (3 ) 的 含义 是 ，ATS_N, 与 ATS_N, 分 别 表 
示 不 同 的 节点 ( 实体) ，ATS_T 表示 ATS_N, 与 ATS_N,， 
之 间 的 语义 关系 ， 方 向 是 由 ATS_N, 指向 ATS_N,。 例 如 
存在 事实 : 作者 李 杰 , 著作 《 工业 大 数据 》, 可 用 三 元 组 ( 李 
杰 ， 作 者 一 书籍 关系 ，《 工 业 大 数据 》) 进行 表示 。 
4. 学 术 图 书 选 题 知识 图 谱 的 构建 

学 术 图 书 选 题 知识 图 谱 的 构建 主要 有 2 个 步骤 , 包 
括 学 术 图 书 选 题 数 据 库存 储 模式 设计 、 利 用 图 形 数 据 库 
构建 知识 图 谱 。 如 图 1 所 示 。 
4. 1 数据 库存 储 模式 设计 

梳理 学 术 图 书 选 题 相关 信息 ， 对 实体 及 其 之 间 的 关 
系 进 行规 范 的 建 模 ， 并 给 出 明确 的 定义 。 结 合 第 3 节 中 
学 术 图 书 选 题 信息 涉及 的 3 种 数据 类 型 和 学 术 图 书 选 题 
知识 图 谱 的 表示 ， 对 学 术 图 书 选 题 知识 图 谱 数 据 库存 储 
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模式 进行 设计 。 对 3 种 数据 类 型 分 别 进行 介绍 。 

(1) 结构 化 的 数据 主要 来 自 关 系 型 数据 库 ( 例如 
MySql、SQL Server ) 、 Excel 等 ， 主 要 方法 是 通过 分 析 表 
的 信息 和 字段 信息 ， 抽 取出 关系 模式 ， 设 计 转 化 规则 ， 
如 数据 库 的 表 结 构 


1 学 术 图 书 选 题 知识 图 谱 的 构建 


关系 型 数据 库 MySql 中 存在 表 名 为 “作者 信息 ”的 表 ， 
见 表 1。 
表 1 作者 信息 
ID | 姓名 [年龄 | 单位 “| 职务 “研究 方向 | 出 版 书籍 
1 | 刘 某 | 34 | 高 校 1 | 教授 | 无 人 包办 | 《A》 


强化 学 习 
2 | 张 菜 | 56 | 研究 所 1 | 研究 员 | 机 器 视觉 | 《B》 
3 | 郭 菜 | 48 | 高 校 2 教授 


无 线 通 信 | 《C》 

结合 学 术 图 书 选 题 知识 图 谱 的 表示 可 抽象 得 到 点 集 
合 和 关系 集合 。 

点 集合 

姓名 ={ 刘 某 ， 张 菜 ， 郭 某 ，…}; 

年 龄 ={34，56，48，…}; 

单位 ={ 高 校 1， 研 究 所 1， 高 校 2，…}; 

职务 ={ 教授 ， 人 研究 院 ，…)}; 

研究 方向 ={ 无 人 驾驶 ， 强 化 学 习 ， 机 需 视 觉 ， 图 像 
处 理 ， 无 线 通 信 ,，…}; 

出 版 书籍 ={《A》，《B》，《C》,，…} 等 。 

边 集 合 

作者 -单位 关系 ={< 作 者 -单位 关系 , 作者 一 > 单位 ， 
( 刘 某 ,作者 -单位 关系 ,高 校 1 ) >, < 作者 -单位 关系 ， 
作者 一 > 单位 ，( 张 某 ,， 作者 -单位 关系 ,研究 所 1 ) >， 
< 作者 -单位 关系 ， 作 者 一 > 单位 ，( 郭 某 ， 作 者 - 单位 
关系 ， 高 校 2 ) >…}; 

作者 -人 研究 方向 关系 ={< 作者 - 研究 方向 关系 ， 作 
者 一 > 研究 方向 ，( 刘 某 , 作者 - 研究 方向 关 , 无 人 驾驶 ) 
>, < 作者 -研究 方向 关系 ,作者 一 > 研究 方向 ，( 刘 某 ， 
作者 -研究 方向 关 , 强化 学 习 )>, < 作者 -研究 方向 关系 ， 
作者 一 > 人 研究 方向 , ( 张 某 , 作者 -研究 方向 关 , 机 器 视觉 ) 
>, < 作者 - 研究 方向 关系 ,作者 一 > 研究 方向 ，( 郭 某 ， 
作者 - 研究 方向 关 ， 无 线 通信 ) >，…} 等 。 

由 于 篇 幅 限 制 ， 此 处 不 一 一 列举 存在 的 点 集合 和 边 
集合 。 

通过 节点 集合 和 关系 集合 进行 学 术 图 书 选 题 知 识 网 
谱 存 储 模 式 的 设计 。 节 点 集合 映射 为 学 术 图 书 选 题 知识 
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图 谱 图 数据 库存 储 模式 中 的 点 表 组 ， 边 集合 映射 为 图 数 
据 库存 储 模式 中 的 关系 表 组 。 学 术 图 书 选 题 知 识 图 谱 的 
图 数据 库存 储 模式 表示 为 实际 存储 的 点 表 组 和 关系 表 组 。 
点 表 组 可 以 很 好 地 保留 层级 结构 ， 同 时 ， 可 以 有 效 扩展 
实体 数据 。 关 系 表 组 由 三 元 组 表示 ， 存 放 事实 ， 关 系 表 
组 可 以 很 好 地 保留 语义 关系 的 层级 关系 ， 同 时 ， 可 以 对 
实体 之 间 的 其 他 语义 关系 进行 有 效 存储 与 拓展 。 

以 作者 -研究 方向 关系 涉及 的 节点 集合 和 边 集合 为 
例 ， 映 射 为 相应 的 点 表 组 和 关系 表 组 ， 作 者 点 表 见 表 2， 
研究 方向 点 表 见 表 3， 作 者 - 研究 关系 表 见 4。 


表 2 作者 点 表 
1D 蔬 点 1 标签 
Name_l1 刘 某 姓名 
Name 2 张 某 姓名 
Name_3 郭 某 姓名 
表 3 研究 方向 点 表 
ID 节点 2 标签 
Research_1 无 人 驾驶 研究 方向 
Research_2 强化 学 习 研究 方向 
Research 3 机 器 视觉 人 研 究 方 回 
Research_4 无 线 通 信 研究 方向 
表 4 作者 -研究 关系 表 
节点 1_ID 关系 1 节点 2_ID 
Name_1 作者 - 研究 关系 Research_1 
Name_1 作者 - 研究 关系 Research_2 
Name_2 作者 - 人 研究 关系 Research_3 


Name 3 作者 - 研究 关系 Research 4 


(2 ) 无 结构 化 数据 根据 语义 关系 的 层级 和 结构 进行 
自 定义 。 

获取 一 段 文本 信息 “2016 的 政策 热点 关键 词 有 大 数 
据 、 物 联网 、 云 计算 、 人 工 智能 、5G 技术 等 ， 大 数据 的 
学 科 方 向 可 分 为 大 数据 采集 与 预 处 理 、 大 数据 存储 与 管 
理 、 大 数据 计算 模式 、 大 数据 分 析 与 挖掘 、 大 数据 可 视 化 、 
大 数据 安全 、 大 数据 系统 与 内 存 、 大 数据 处 理 平台 、 大 
数据 网 络 等 ， 其 中 ,工业 大 数据 方向 的 图 书市 场 上 有 《 工 
业 大 数据 》, 作者 是 李 杰 , 出 版 单位 是 机 械 工业 出 版 社 。 

结合 学 术 图 书 选 题 知识 图 谱 的 表示 可 抽象 得 到 点 集 
合 和 关系 集合 。 

点 集合 

政策 热点 点 集合 ={ 大 数据 ， 物 联网 ， 云 计算 ， 人 工 
智能 ，5G 技术 ，… 

大 数据 学 科 方向 点 集合 ={ 大 数据 采集 与 预 处 理 ， 大 
数据 存储 与 管理 ， 大 数据 计算 模式 ,大 数据 分 析 与 挖 气 ， 
大 数据 可 视 化 ， 大 数据 安全 ， 大 数据 系统 与 内 存 ， 大 数 
据 处 理 平台 ， 大 数据 网 络 ， 数据 算法 基础 ， 工 业 大 数据 ， 
-等 。 

边 集 合 


(大 数据 , 热点 学 科 关 系 , 工业 大 数据 )>,< 热 点 学 科 关 系 ， 
热点 一 > 学 科 ， (大 数据 ， 热 点 学 科 关 系 ， 大 数据 存储 与 
管理 ) >，…'}。 

各 类 关系 通过 逮 辑 及 实际 应 用 进行 解析 定义 ， 此 处 
不 一 一 列举 。 

通过 节点 集合 和 关系 集合 进行 学 术 图 书 选 题 知识 图 
谱 图 数据 库存 储 模式 的 设计 方法 与 结构 化 数据 ， 此 处 不 
再 列举 。 
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(3 ) 半 结 构 化 数据 介 于 结构 化 数据 和 非 结 构 数 据 之 
间 ， 一 般 在 XML 文件 中 得 到 相关 的 数据 层级 关系 ， 根 据 
实际 情况 ， 结 合 结构 化 数据 和 非 结构 化 数据 的 处 理 方法 
即 可 设计 得 到 学 术 图 书 选 题 知识 图 谱 图 数据 库 模 式 。 
4. 2 利用 图 数据 库 构 建 知识 图 谱 

基于 设计 的 图 数据 库存 储 模式 ， 利 用 图 形 数据 库 进 
行 学 术 图 书 选 题 知识 图 谱 的 构建 。 从 最 近 几 年 的 发 展 情 
况 可 以 看 到 基于 图 的 存储 方式 在 整个 数据 库存 储 领域 的 
飞速 发 展 ， 其 中 ，Neo4j 在 整个 图 存储 领域 中 占据 NO.1 
的 地 位 。Neo4j 是 一 个 高 性 能 的 图 数据 库 ， 可 以 在 Java 
和 Python 等 平台 上 使 用 。 本 文通 过 Java API 将 图 数据 存 
储 模式 中 的 点 表 组 与 关系 表 组 中 的 学 术 图 书 选 题 数 据 写 
人 Neo4j 图 数据 库 中 ， 构 建 学 术 图 书 选 题 知识 图 谱 。 利 
用 Neo4j 图 数据 库 构 建 知识 图 谱 可 参考 The Neo4j Graph 
Platform， 主 要 方法 是 将 设计 的 点 表 组 和 关系 表 组 ， 利 用 
Cypher 语句 写 入 Neo4j 图 形 数据 库 ， 得 到 知识 图 谱 。 

以 人 民 邮 电 出 版 社 国 之 重 器 系列 图 书 为 例 给 出 部 分 
知识 图 谱 展 示 示 意图 ， 如 图 2 所 示 。 图 2 中 对 人 民 邮 电 
出 版 社 国之 重 器 系列 图 书 的 相关 信息 进行 了 部 分 示意 。 


| 《通信 学 报 》 编 委 | | 《大 数据 } 主编 
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2 学术 图 书 选 题 部 分 知识 图 谱 示 意 


结语 

本 文通 过 对 学 术 图 书 选 题 策划 中 存在 的 问题 进行 分 
析 ， 对 学 术 图 书 选 题 知识 图 谱 的 表示 和 构建 方法 进行 研 
究 ， 以 期 通过 构建 知识 图 谱 解决 目前 学 术 图 书 选 题 策划 
中 存在 的 问题 ， 并 为 学 术 图 书 选 题 策划 提供 有 效 的 辅助 
决策 支撑 。 目 前 ， 因 数据 量 的 限制 ， 本 文 的 知识 图 谱 规 
模 较 小 ， 后 续 将 继续 丰富 学 术 图 书 选 题 知识 图 谱 ， 并 以 
期 通过 知识 推理 等 方法 推荐 辅助 学 术 图 书 选 题 策划 。 回 
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